草庐IT

php - UTF-8 与 PHP DOMDocument loadHTML?

全部标签

java - Xerces UTF8Reader 中导致 MalformedByteSequenceException 的编码问题

我遇到了com.sun.org.apache.xerces.internal.impl.io.MalformedByteSequenceException使用XML文件。我使用调试器逐步执行Xerces代码,并缩小了发生这种情况的范围。我能够确定通过删除文档中的“智能引号”字符,文档变得可解析。文档没有DTD。Notepad++将其标记为“作为UTF-8的ANSI”。Firefox将其称为“西方”。我记得在大学里听过一次不太惊心动魄的讲座,UTF-8被设计为与单字节编码系统向后兼容。我也看到onthischart,字节序列e2809d事实上,代表“右双引号”,但即使我看不到编码问题,我

sql-server - SQL Server - 使用 UTF-8 编码定义 XML 类型的列

SQLServer中定义的XML类型字段的默认编码是UTF-16。我可以毫不费力地将UTF-16编码的XML流插入该字段。但是如果我尝试插入到具有UTF-8编码的XML流的字段中,插入尝试将收到错误响应无法切换编码。问题:有没有办法将SQLServer列/字段定义为具有UTF-8编码?更多信息插入操作使用SpringJDBCTemplate执行。XML流由设置为UTF-8或UTF-16编码的JAXB编码器生成。privateStringmarshall(myDAOmyTao,JAXBEncodingjaxbEncoding)throwsJAXBException{JAXBContext

java - 验证 "Invalid byte 1 of 1-byte UTF-8 sequence."中的 XML 文档结果

我正在根据Schematron验证一些XML文件使用Probatron4j的样式表,它在内部使用Saxon。大多数时候,这工作正常,但偶尔,处理会因错误而崩溃org.xml.sax.SAXParseException:Invalidbyte1of1-byteUTF-8sequence.我的研究表明此消息通常表示(无特定顺序)明显无效的数据(例如,试图将ZIP文件当作XML文件来读取);存在byteordermarks;存在UTF-8中不合法的字符;或声称是UTF-8编码的文件是在撒谎。这些都不适用于我正在处理的文档。我在程序执行期间检查了字节数组形式的输入,它不包含BOM或任何非ASC

java - JAXB错误: Invalid byte 1 of 1-byte UTF-8 sequence的解释

我们正在使用JAXB解析XML文档并收到此错误:[org.xml.sax.SAXParseException:Invalidbyte1of1-byteUTF-8sequence.]atjavax.xml.bind.helpers.AbstractUnmarshallerImpl.createUnmarshalException(AbstractUnmarshallerImpl.java:315)这到底是什么意思,我们该如何解决?我们正在执行代码:jaxbContext=JAXBContext.newInstance(Results.class);Unmarshallerunmarsha

xml - PHP SimpleXML xpath : contains and position

这是我的PHP代码:$xml=newSimpleXMLElement('data.xml',null,true);$q=$xml->xpath('post/misc[contains(tags,"animal")][position()这是XML文件:1animal,tiger0.52plant,coconut0.53animal,lion0.54animal,monkey0.5如何获取标签中包含“动物”的前2个元素?xpath结果应该是post:id=1和post:id=3,但是它返回了所有包含animal的元素>. 最佳答案 将

python - lxml 无法解析 xml(编码是否为 utf-8)[python]

我的代码:importreimportrequestsfromlxmlimportetreeurl='http://weixin.sogou.com/gzhjs?openid=oIWsFt__d2wSBKMfQtkFfeVq_u8I&ext=2JjmXOu9jMsFW8Sh4E_XmC0DOkcPpGX18Zm8qPG7F0L5ffrupfFtkDqSOm47Bv9U'r=requests.get(url)items=r.json()['items']没有编码('utf-8'):etree.fromstring(items[0])输出:ValueErrorTraceback(mostr

java - 如何在 javax.xml.transform.Transformer.transform 的输出中保留输入声明的编码? (例如避免将 UTF-16 更改为 UTF-8)

假设这个输入XML编写这些代码行:StreamSourcesource=newStreamSource(newStringReader(/*theaboveXML*/));StringWriterstringWriter=newStringWriter();StreamResultstreamResult=newStreamResult(stringWriter);TransformerFactory.newInstance().newTransformer().transform(source,streamResult);returnstringWriter.getBuffer().

c# - 在 C# (.Net 3.5) 中,是否可以使用标准文字常量来代替 "utf-8"?

我想找到一个更好的方法来做到这一点:XmlNodenodeXML=xmlDoc.AppendChild(xmlDoc.CreateXmlDeclaration("1.0","utf-8",String.Empty));我不想在键入代码时考虑“utf-8”与“UTF-8”与“UTF8”与“utf8”。我想让我的代码更不容易出现拼写错误。我确信某些标准库已将"utf-8"声明为const/readonly字符串。我怎样才能找到它?另外,“1.0”呢?我假设主要的XML版本也已在某处枚举。谢谢! 最佳答案 试试Encoding.UTF8.

python - Unicode解码错误: 'utf-8' codec can't decode byte 0xe2 in position 434852: invalid continuation byte

我正在使用hfcca计算C++代码的圈复杂度。hfcca是一个简单的python脚本(https://code.google.com/p/headerfile-free-cyclomatic-complexity-analyzer/)。当我尝试运行脚本以生成xml文件形式的输出时,出现以下错误:Traceback(mostrecentcalllast):"./hfcca.py",line802,inmain(sys.argv[1:])File"./hfcca.py",line798,inmainprint(xml_output([fforfinr],options))File"./hf

c# - XmlWriter 在 C# 中使用 StringWriter 编码 UTF-8

我正在使用C#输出一个xml文件,我试图将xml编码值设置为UTF-8,但它当前输出的是:这是我的代码:publicsealedclassStringWriterWithEncoding:StringWriter{privatereadonlyEncodingencoding;publicStringWriterWithEncoding(Encodingencoding){this.encoding=encoding;}publicoverrideEncodingEncoding{get{returnencoding;}}}privatestringGetXml(JobStorejob